Recently, deep learning based 3D face reconstruction methods have shown promising results in both quality and efficiency. However, training deep neural networks typically requires a large volume of data, whereas face images with ground-truth 3D face shapes are scarce. In this paper, we propose a novel deep 3D face reconstruction approach that 1) leverages a robust, hybrid loss function for weakly-supervised learning which takes into account both low-level and perception-level information for supervision, and 2) performs multi-image face reconstruction by exploiting complementary information from different images for shape aggregation. Our method is fast, accurate, and robust to occlusion and large pose. We provide comprehensive experiments on three datasets, systematically comparing our method with fifteen recent methods and demonstrating its state-of-the-art performance. Code available at https://github.com/ Microsoft/Deep3DFaceReconstruction
translated by 谷歌翻译
Previous work on controllable text generation has explored the idea of control from the latent space, such as optimizing a representation with attribute-related classifiers or sampling a representation from relevant discrete samples. However, they are not effective enough in modeling both the latent space and the control, leaving controlled text with low quality and diversity. In this work, we propose a novel control framework using probability density estimation in the latent space. Our method utilizes an invertible transformation function, the Normalizing Flow, that maps the complex distributions in the latent space to simple Gaussian distributions in the prior space. Thus, we can perform sophisticated and flexible control in the prior space and feed the control effects back into the latent space owing to the one-one-mapping property of invertible transformations. Experiments on single-attribute controls and multi-attribute control reveal that our method outperforms several strong baselines on attribute relevance and text quality and achieves the SOTA. Further analysis of control strength adjustment demonstrates the flexibility of our control strategy.
translated by 谷歌翻译
Neural Radiance Fields (NeRF) have demonstrated superior novel view synthesis performance but are slow at rendering. To speed up the volume rendering process, many acceleration methods have been proposed at the cost of large memory consumption. To push the frontier of the efficiency-memory trade-off, we explore a new perspective to accelerate NeRF rendering, leveraging a key fact that the viewpoint change is usually smooth and continuous in interactive viewpoint control. This allows us to leverage the information of preceding viewpoints to reduce the number of rendered pixels as well as the number of sampled points along the ray of the remaining pixels. In our pipeline, a low-resolution feature map is rendered first by volume rendering, then a lightweight 2D neural renderer is applied to generate the output image at target resolution leveraging the features of preceding and current frames. We show that the proposed method can achieve competitive rendering quality while reducing the rendering time with little memory overhead, enabling 30FPS at 1080P image resolution with a low memory footprint.
translated by 谷歌翻译
软气动执行器已经在许多软机器人系统中看到了应用,其压力驱动的性质提出了控制其运动的独特挑战和机会。在这项工作中,我们提出了一个新概念:通过末端几何形状设计和控制气动执行器。我们演示了一个新颖的执行器类,称为折叠气动人造肌肉(Foldpam),该肌肉具有一个薄纤维的空气袋,两侧对称折叠。改变执行器的折叠部分会改变最终约束,从而改变力 - 应变关系。我们通过测量具有各种长度和折叠量的单个foldpam单元的力 - 应变关系来实验研究这一变化。除静态几何单元外,驱动的FOLDPAM设备还设计为产生末端几何形状的连续,按需调整,从而实现闭环位置控制,同时保持恒定压力。使用设备的实验表明几何控制允许进入力 - 应变平面上的不同区域,并且闭环几何控制可以在驱动范围的0.5%以内实现误差。
translated by 谷歌翻译
本文介绍了对体现药物(Genea)挑战2022的非语言行为的生成和评估的重生条目。Genea挑战提供了处理后的数据集并进行众包评估,以比较不同手势生成系统的性能。在本文中,我们探讨了基于多模式表示学习的自动手势生成系统。我们将WAVLM功能用于音频,FastText功能,用于文本,位置和旋转矩阵功能用于手势。每个模态都投影到两个不同的子空间:模态不变和特定于模态。为了学习模式间不变的共同点并捕获特定于模态表示的字符,在训练过程中使用了基于梯度逆转层的对抗分类器和模态重建解码器。手势解码器使用与音频中的节奏相关的所有表示和功能生成适当的手势。我们的代码,预培训的模型和演示可在https://github.com/youngseng/represture上找到。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
图形卷积网络由于非欧几里得数据的出色建模能力而广泛用于基于骨架的动作识别。由于图形卷积是局部操作,因此它只能利用短距离关节依赖性和短期轨迹,但无法直接建模遥远的关节关系和远程时间信息,这些信息对于区分各种动作至关重要。为了解决此问题,我们提出了多尺度的空间图卷积(MS-GC)模块和一个多尺度的时间图卷积(MT-GC)模块,以在空间和时间尺寸中丰富模型的接受场。具体而言,MS-GC和MT-GC模块将相应的局部图卷积分解为一组子图形卷积,形成了层次的残差体系结构。在不引入其他参数的情况下,该功能将通过一系列子图卷积处理,每个节点都可以与其邻域一起完成多个空间和时间聚集。因此,最终的等效接收场被扩大,能够捕获空间和时间域中的短期和远程依赖性。通过将这两个模块耦合为基本块,我们进一步提出了一个多尺度的空间时间图卷积网络(MST-GCN),该网络(MST-GCN)堆叠了多个块以学习有效的运动表示行动识别的运动表示。拟议的MST-GCN在三个具有挑战性的基准数据集(NTU RGB+D,NTU-1220 RGB+D和动力学 - 骨骼)上实现了出色的性能,用于基于骨架的动作识别。
translated by 谷歌翻译
由于成像硬件和重建算法的重大进展,计算成像拐角处或非视线(NLOS)成像的方法正在成为现实。 NAM等人的最新发展NLOS成像。展示了一个高速非焦距成像系统,其运行速度为5Hz,比以前的ART快100倍。然而,这种巨大的采集率增长需要在光传输中进行大量近似,打破了许多现有的NLOS重建方法,这些方法采用了理想化的图像形成模型。为了弥合差距,我们提出了一个新颖的深层模型,该模型结合了波传播和体积渲染的互补物理学先验,以进行高质量和强大的NLOS重建。该精心策划的设计通过放松图像形成模型来规范解决方案空间,从而产生了一个深层模型,尽管在合成数据上只接受了专门的培训,但在真实捕获上却很好地概括了。此外,我们设计了一个统一的学习框架,使我们的模型能够使用各种监督信号(包括目标强度图像甚至RAW NLOS瞬态测量)灵活训练我们的模型。一旦受过训练,我们的模型就会在一次前传球中的推理时间呈现强度和深度图像,能够在高端GPU上处理超过5个以上的捕获。通过广泛的定性和定量实验,我们表明我们的方法的表现优于先前的物理和基于学习的方法,同时基于合成和实际测量。我们预计,我们的方法以及快速捕获系统将加速NLOS成像的未来开发,用于需要高速成像的现实世界应用。
translated by 谷歌翻译
VITS通常太昂贵昂贵,无法安装在现实世界资源受限的设备上,因为(1)它们与输入令牌的数量和(2)其过度分开的自我关注头和模型深度相反的复杂性。并行地,不同的图像具有变化性变化,并且它们的不同区域可以包含各种级别的视觉信息,表明在模型复杂性方面同样地处理所有区域/令牌是不必要的,而这些机会尚未完全探索修剪vits的复杂性的机会。为此,我们提出了一种多粒子的输入 - 自适应视觉变压器框架被称为MIA-Fight,可以在三个粗粒细粒粒度(即,模型深度和模型数量的数量头/令牌)。特别是,我们的MIA-Agent采用具有混合监督和加固训练方法的低成本网络,以跳过不必要的层,头部和令牌以输入的自适应方式,降低整体计算成本。此外,我们的mia-ideor的有趣副作用是它的由此产生的vits自然地配备了对他们静态同行的对抗对抗攻击的改善的鲁棒性,因为米娅 - 以前的多粒度动态控制改善了模型多样性,类似于集合的效果因此,增加对抗所有子模型的对抗性攻击的难度。广泛的实验和消融研究验证了所提出的MIA - 前框架可以有效地分配适应性的计算预算与输入图像的难度增加,同时增加稳健性,实现最先进的(SOTA)精度效率权衡,例如20与SOTA动态变压器模型相比,%计算节省相同甚至更高的准确性。
translated by 谷歌翻译
在某些类型的数据转换下开发出不变的机器学习模型表明了在实践中提高的泛化。但是,对不变性福利泛化的原因理解有限。鉴于数据集,通常没有原则性的方式选择“合适”数据转换,在其中模型不变性保证更好的泛化。本文通过引入由转换引起的样本盖,即可以使用变换逐时恢复整个数据集的数据集的代表子集来研究模型不变性的泛化效益。对于任何数据转换,我们为基于样本盖板提供了不变模型的精细泛化界限。我们还通过转换诱导的样本覆盖数来表征一组数据变换的“适用性”,即其诱导样品盖的最小尺寸。我们表明我们可能会收紧具有小样本覆盖数量的“合适”转换的泛化界限。此外,我们提出的样本覆盖号可以经验评估,从而提供用于选择变换以开发模型不变性以便更好地推广的指南。在对多个数据集的实验中,我们评估一些常用的变换的样本覆盖数字,并表明一组变换(例如,3D-View转换)的较小的样本覆盖号码表示测试和训练错误的较小的差距模型,验证我们的命题。
translated by 谷歌翻译